50 research outputs found

    Acquisition de liens sémantiques à partir d'éléments de mise en forme des textes: exploitation des structures énumératives

    Get PDF
    The past decade witnessed significant advances in the field of relation extraction from text, facilitating the building of lexical or semantic resources. However, the methods proposed so far (supervised learning, kernel methods, distant supervision, etc.) don't fully exploit the texts: they are usually applied at the sentential level and they don't take into account the layout and the formatting of texts.In such a context, this thesis aims at expanding those methods and makes them layout-aware for extracting relations expressed beyond sentence boundaries. For this purpose, we rely on the semantics conveyed by typographical (bullets, emphasis, etc.) and dispositional (visual indentations, carriage returns, etc.) features. Those features often substitute purely discursive formulations. In particular, the study reported here is dealing with the relations carried by the vertical enumerative structures. Although they display discontinuities between their various components, the enumerative structures can be dealt as a whole at the semantic level. They form textual structures prone to hierarchical relations.This study was divided into two parts. (i) The first part describes a model representing the hierarchical structure of documents. This model is falling within the theoretical framework representing the textual architecture: an abstraction of the layout and the formatting, as well as a strong connection with the rhetorical structure are achieved. However, our model focuses primarily on the efficiency of the analysis process rather than on the expressiveness of the representation. A bottom-up method intended for building automatically this model is presented and evaluated on a corpus of PDF documents.(ii) The second part aims at integrating this model into the process of relation extraction. In particular, we focused on vertical enumerative structures. A multidimensional typology intended for characterizing those structures was established and used into an annotation task. Thanks to corpus-based observations, we proposed a two-step method, by supervised learning, for qualifying the nature of the relation and identifying its arguments. The evaluation of our method showed that exploiting the formatting and the layout of documents, in combination with standard lexico-syntactic features, improves those two tasks.Ces dernières années de nombreux progrès ont été faits dans le domaine de l'extraction de relations à partir de textes, facilitant ainsi la construction de ressources lexicales ou sémantiques. Cependant, les méthodes proposées (apprentissage supervisé, méthodes à noyaux, apprentissage distant, etc.) n’exploitent pas tout le potentiel des textes : elles ont généralement été appliquées à un niveau phrastique, sans tenir compte des éléments de mise en forme.Dans ce contexte, l'objectif de cette thèse est d'adapter ces méthodes à l'extraction de relations exprimées au-delà des frontières de la phrase. Pour cela, nous nous appuyons sur la sémantique véhiculée par les indices typographiques (puces, emphases, etc.) et dispositionnels (indentations visuelles, retours à la ligne, etc.), qui complètent des formulations strictement discursives. En particulier, nous étudions les structures énumératives verticales qui, bien qu'affichant des discontinuités entre leurs différents composants, présentent un tout sur le plan sémantique. Ces structures textuelles sont souvent révélatrices de relations hiérarchiques. Notre travail est divisé en deux parties. (i) La première partie décrit un modèle pour représenter la structure hiérarchique des documents. Ce modèle se positionne dans la suite des modèles théoriques proposés pour rendre compte de l'architecture textuelle : une abstraction de la mise en forme et une connexion forte avec la structure rhétorique sont faites. Toutefois, notre modèle se démarque par une perspective d'analyse automatique des textes. Nous en proposons une implémentation efficace sous la forme d'une méthode ascendante et nous l'évaluons sur un corpus de documents PDF. (ii) La seconde partie porte sur l'intégration de ce modèle dans le processus d'extraction de relations. Plus particulièrement, nous nous sommes focalisés sur les structures énumératives verticales. Un corpus a été annoté selon une typologie multi-dimensionnelle permettant de caractériser et de cibler les structures énumératives verticales porteuses de relations utiles à la création de ressources. Les observations faites en corpus ont conduit à procéder en deux étapes par apprentissage supervisé pour analyser ces structures : qualifier la relation puis en extraire les arguments. L'évaluation de cette méthode montre que l'exploitation de la mise en forme, combinée à un faisceau d'indices lexico-syntaxiques, améliore les résultats

    Une typologie multi-dimensionnelle des structures énumératives pour l'identification des relations termino-ontologiques

    Get PDF
    International audienceCe travail s'inscrit dans le cadre de la construction de ressources termino-ontologiques. Il vise à améliorer l'extraction des relations sémantiques en exploitant les structures énumératives contenues dans les textes. Nous proposons ici une typologie multi-dimensionnelle de ces structures énumératives, selon les axes visuel, rhétorique, intentionnel et sémantique. Cette typologie intervient dans le cadre d'une campagne d'annotation outillée par LARAt (Logiciel d'Acquisition de Relations par l'Annotation de textes), pour l'identification de relations par apprentissage supervisé

    DĂ©tection automatique de la structure organisationnelle de documents Ă  partir de marqueurs visuels et lexicaux

    Get PDF
    National audienceLa compréhension d'un texte s'opère à travers les niveaux d'information visuelle, logique et discursive, et leurs relations d'interdépendance. La majorité des travaux ayant étudié ces relations a été menée dans le cadre de la génération de textes, où les propriétés visuelles sont inférées à partir des éléments logiques et discursifs. Les travaux présentés ici adoptent une démarche inverse en proposant de générer automatiquement la structure organisationnelle du texte (structure logique) à partir de sa forme visuelle. Le principe consiste à (i) labelliser des blocs visuels par apprentissage afin d'obtenir des unités logiques et (ii) relier ces unités par des relations de coordination ou de subordination pour construire un arbre. Pour ces deux tâches, des Champs Aléatoires Conditionnels et un Maximum d'Entropie sont respectivement utilisés. Après apprentissage, les résultats aboutissent à une exactitude de 80,46% pour la labellisation et 97,23% pour la construction de l'arbre

    Pilot scale biotransformation of vegetal oil into natural green note flavor using sugar beet leaves as sources of hydroperoxide lyase

    Full text link
    Natural green note aromas (GLVs) are highly attractive flavors commonly used in the food industry. These are produced in extremely low levels upon physiological stress in plant organs of any sort. This weak sporadic presence entails a very expensive extraction step to obtain pure GLVs. Therefore catalytic biotransformations of fatty acid sources, the initial substrate for GLVs, have been developed. Enzymatic defense pathways and particularly the LOX pathway produce the major part of GLVs. Unlike GLV molecules that are emitted in the atmosphere, the enzymes are extractible from the plant material. Thus, a combination of plant enzyme extracts and substrate preparations provides all the ingredients for GLV production. Besides, sugar beet leaves present high levels of hydroperoxide lyase among plant sources and are available in large amounts during three months. In this enzymatic pathway, fatty acids are successively transformed by lipase, lipoxygenase and hydroperoxide lyase into aldehydes and alcohols, final compounds of GLVs pathway. Limiting and problematic steps occur with the action of hydroperoxide lyase, when enzymatic catalysis is followed by an enzyme destabilization. Alternative substrates bind irreversibly to the heme group of the enzyme and end the reaction. This poster briefly describes the development of a complete bioprocess for natural GLV production, from hydrolysis to purification. A high level of biotransformation could be achieved using optimum experimental conditions and a cheap source of plant materials

    Reprogramming of fatty acid and oxylipin synthesis in rhizobacteria-induced systemic resistance in tomato

    Full text link
    The rhizobacterium Pseudomonas putida BTP1 stimulates induced systemic resistance (ISR) in tomato. A previous work showed that the resistance is associated in leaves with the induction of the first enzyme of the oxylipin pathway, the lipoxygenase (LOX), leading to a faster accumulation of its product, the free 13-hydroperoxy octadecatrienoic acid (13-HPOT), 2 days after Botrytis cinerea inoculation. In the present study, we further investigated the stimulation of the oxylipin pathway: metabolites and enzymes of the pathway were analyzed to understand the fate of the 13-HPOT in ISR. Actually the stimulation began upstream the LOX: free linolenic acid accumulated faster in P. putida BTP1-treated plants than in control. Downstream, the LOX products 13-fatty acid hydroperoxides esterified to galactolipids and phospholipids were more abundant in bacterized plants than in control before infection. These metabolites could constitute a pool that will be used after pathogen attack to produce free fungitoxic metabolites through the action of phospholipase A2, which is enhanced in bacterized plants upon infection. Enzymatic branches which can use as substrate the fatty acid hydroperoxides were differentially regulated in bacterized plants in comparison to control plants, so as to lead to the accumulation of the most fungitoxic compounds against B. cinerea. Our study, which is the first to demonstrate the accumulation of an esterified defense metabolite during rhizobacteria-mediated induced systemic resistance, showed that the oxylipin pathway is differentially regulated. It suggests that this allows the plant to prepare to a future infection, and to respond faster and in a more effective way to B. cinerea invasion.Peer reviewe

    Do Surgeons Anticipate Women’s Hopes and Fears Associated with Prolapse Repair? A Qualitative Analysis in the PROSPERE Trial

    Get PDF
    Women’s preoperative perceptions of pelvic-floor disorders may differ from those of their physicians. Our objective was to specify women’s hopes and fears before cystocele repair, and to compare them to those that surgeons anticipate. We performed a secondary qualitative analysis of data from the PROSPERE trial. Among the 265 women included, 98% reported at least one hope and 86% one fear before surgery. Sixteen surgeons also completed the free expectations-questionnaire as a typical patient would. Women’s hopes covered seven themes, and women’s fears eleven. Women’s hopes were concerning prolapse repair (60%), improvement of urinary function (39%), capacity for physical activities (28%), sexual function (27%), well-being (25%), and end of pain or heaviness (19%). Women’s fears were concerning prolapse relapse (38%), perioperative concerns (28%), urinary disorders (26%), pain (19%), sexual problems (10%), and physical impairment (6%). Surgeons anticipated typical hopes and fears which were very similar to those the majority of women reported. However, only 60% of the women reported prolapse repair as an expectation. Women’s expectations appear reasonable and consistent with the scientific literature on the improvement and the risk of relapse or complication related to cystocele repair. Our analysis encourages surgeons to consider individual woman’s expectations before pelvic-floor repair

    Acquisition of semantic relations from layout elements : exploitation of enumerative structures

    No full text
    Ces dernières années de nombreux progrès ont été faits dans le domaine de l'extraction de relations à partir de textes, facilitant ainsi la construction de ressources lexicales ou sémantiques. Cependant, les méthodes proposées (apprentissage supervisé, méthodes à noyaux, apprentissage distant, etc.) n'exploitent pas tout le potentiel des textes : elles ont généralement été appliquées à un niveau phrastique, sans tenir compte des éléments de mise en forme. Dans ce contexte, l'objectif de cette thèse est d'adapter ces méthodes à l'extraction de relations exprimées au-delà des frontières de la phrase. Pour cela, nous nous appuyons sur la sémantique véhiculée par les indices typographiques (puces, emphases, etc.) et dispositionnels (indentations visuelles, retours à la ligne, etc.), qui complètent des formulations strictement discursives. En particulier, nous étudions les structures énumératives verticales qui, bien qu'affichant des discontinuités entre leurs différents composants, présentent un tout sur le plan sémantique. Ces structures textuelles sont souvent révélatrices de relations hiérarchiques. Notre travail est divisé en deux parties. (i) La première partie décrit un modèle pour représenter la structure hiérarchique des documents. Ce modèle se positionne dans la suite des modèles théoriques proposés pour rendre compte de l'architecture textuelle : une abstraction de la mise en forme et une connexion forte avec la structure rhétorique sont faites. Toutefois, notre modèle se démarque par une perspective d'analyse automatique des textes. Nous en proposons une implémentation efficace sous la forme d'une méthode ascendante et nous l'évaluons sur un corpus de documents PDF.(ii) La seconde partie porte sur l'intégration de ce modèle dans le processus d'extraction de relations. Plus particulièrement, nous nous sommes focalisés sur les structures énumératives verticales. Un corpus a été annoté selon une typologie multi-dimensionnelle permettant de caractériser et de cibler les structures énumératives verticales porteuses de relations utiles à la création de ressources. Les observations faites en corpus ont conduit à procéder en deux étapes par apprentissage supervisé pour analyser ces structures : qualifier la relation puis en extraire les arguments. L'évaluation de cette méthode montre que l'exploitation de la mise en forme, combinée à un faisceau d'indices lexico-syntaxiques, améliore les résultats.The past decade witnessed significant advances in the field of relation extraction from text, facilitating the building of lexical or semantic resources. However, the methods proposed so far (supervised learning, kernel methods, distant supervision, etc.) don't fully exploit the texts : they are usually applied at the sentential level and they don't take into account the layout and the formatting of texts. In such a context, this thesis aims at expanding those methods and makes them layout-aware for extracting relations expressed beyond sentence boundaries. For this purpose, we rely on the semantics conveyed by typographical (bullets, emphasis, etc.) and dispositional (visual indentations, carriage returns, etc.) features. Those features often substitute purely discursive formulations. In particular, the study reported here is dealing with the relations carried by the vertical enumerative structures. Although they display discontinuities between their various components, the enumerative structures can be dealt as a whole at the semantic level. They form textual structures prone to hierarchical relations. This study was divided into two parts. (i) The first part describes a model representing the hierarchical structure of documents. This model is falling within the theoretical framework representing the textual architecture : an abstraction of the layout and the formatting, as well as a strong connection with the rhetorical structure are achieved. However, our model focuses primarily on the efficiency of the analysis process rather than on the expressiveness of the representation. A bottom-up method intended for building automatically this model is presented and evaluated on a corpus of PDF documents. (ii) The second part aims at integrating this model into the process of relation extraction. In particular, we focused on vertical enumerative structures. A multidimensional typology intended for characterizing those structures was established and used into an annotation task. Thanks to corpus-based observations, we proposed a two-step method, by supervised learning, for qualifying the nature of the relation and identifying its arguments. The evaluation of our method showed that exploiting the formatting and the layout of documents, in combination with standard lexico-syntactic features, improves those two tasks

    Identification de relations sémantiques portées par les structures énumératives paradigmatiques : une approche symbolique et une approche par apprentissage supervisé

    No full text
    International audienceUn texte est une suite de phrases dont la cohérence sémantique et rhétorique doit être assurée par des relations du discours. Un texte met aussi en œuvre un ensemble de moyens typographiques, de ponctuations et d'agencements qui contribuent, eux aussi, à identifier son sens. Ces deux propriétés ont été respectivement formalisées, par différentes théories du discours, et par des modèles de structure de textes. Les correspondances entre les représentations des structures du discours et les mises en forme des textes ne sont pas généralement bijectives. Néanmoins, certaines structures discursives comme les structures énumératives profitent de cette correspondance. Ces dernières ont des caractéristiques de typographie, de ponctuation ou/et de disposition qui (1) les rendent facilement repérables et (2) traduisent des relations hiérarchiques. Dans cet article nous montrons, à l'aide de deux approches, comment les objets textuels ayant les propriétés (1) et (2) peuvent être exploités pour améliorer considérablement le processus d'enrichissement de ressources termino-ontologiques à partir de textes. Deux approches, l'une symbolique et l'autre par apprentissage supervisé ont été mises en œuvre. Les avantages et limites de ces approches font l'objet d'une discussion en fin d'article
    corecore